Preparação do Ambiente

Para as análises apresentadas a seguir, foram utilizadas as bibliotecas tidyverse, ggplot2, dplyr e plotly. Os dados usados para essa análise, foram:

glimpse(atividade)
## Observations: 608
## Variables: 19
## $ id_parlamentar        <chr> "204554", "204521", "204379", "204560", "2…
## $ casa                  <chr> "câmara", "câmara", "câmara", "câmara", "c…
## $ nome_eleitoral        <chr> "ABÍLIO SANTANA", "ABOU ANNI", "ACÁCIO FAV…
## $ partido               <chr> "PR", "PSL", "PROS", "PSDB", "NOVO", "PP",…
## $ UF                    <chr> "BA", "SP", "AP", "BA", "SP", "GO", "MG", …
## $ twitter               <chr> "AbilioSantana_", "abouannipv", "FavachoAc…
## $ seguidores            <dbl> NA, NA, NA, NA, 4652, NA, NA, NA, NA, NA, …
## $ segue                 <dbl> NA, NA, NA, NA, 315, NA, NA, NA, NA, NA, N…
## $ n_proprio             <dbl> 0, 0, 0, 0, 99, 0, 0, 0, 0, 0, 0, 0, NA, 4…
## $ n_retweet             <dbl> 0, 0, 0, 0, 9, 0, 0, 0, 0, 0, 0, 0, NA, 1,…
## $ engaj_total           <dbl> 0, 0, 0, 0, 7090, 0, 0, 0, 0, 0, 0, 0, NA,…
## $ engaj_total_proprio   <dbl> 0, 0, 0, 0, 6701, 0, 0, 0, 0, 0, 0, 0, NA,…
## $ engaj_total_retweet   <dbl> 0, 0, 0, 0, 389, 0, 0, 0, 0, 0, 0, 0, NA, …
## $ engaj_mediano         <dbl> 0.0, 0.0, 0.0, 0.0, 26.5, 0.0, 0.0, 0.0, 0…
## $ engaj_mediano_proprio <dbl> 0.0, 0.0, 0.0, 0.0, 22.5, 0.0, 0.0, 0.0, 0…
## $ engaj_mediano_retweet <dbl> 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.…
## $ engaj_max             <dbl> 0, 0, 0, 0, 1031, 0, 0, 0, 0, 0, 0, 0, NA,…
## $ engaj_max_proprio     <dbl> 0, 0, 0, 0, 1031, 0, 0, 0, 0, 0, 0, 0, NA,…
## $ engaj_max_retweet     <dbl> 0, 0, 0, 0, 99, 0, 0, 0, 0, 0, 0, 0, NA, 4…

Análise dos dados

1. Calculando correlações

Para uma boa análise dos dados mostrou-se imprescindível a utilização de fórmulas estátisticas de correlação para entender melhor a relação entre duas diferentes variáveis. Para isso, foram criadas colunas com o resultado do cálculo das fórmulas de pearson, spearman e kendall, afim de entender mais claramente as relações.

## # A tibble: 67 x 4
##    correlacao                                   pearson spearman kendall
##    <chr>                                          <dbl>    <dbl>   <dbl>
##  1 n_proprio + engaj_mediano_retweet           -0.0322   -0.0970 -0.0787
##  2 n_retweet + engaj_mediano_proprio           -0.0254    0.129   0.0992
##  3 segue + engaj_mediano_retweet               -0.0197    0.0858  0.0693
##  4 segue + engaj_total_proprio                 -0.0147    0.236   0.159 
##  5 segue + engaj_mediano_proprio               -0.0107    0.0402  0.0287
##  6 segue + engaj_total                         -0.00872   0.260   0.175 
##  7 segue + engaj_mediano                       -0.00592   0.167   0.114 
##  8 n_proprio + engaj_mediano_proprio           -0.00318   0.256   0.177 
##  9 engaj_total_proprio + engaj_mediano_retweet -0.00280  -0.0523 -0.0430
## 10 engaj_mediano_retweet + engaj_max_proprio   -0.00116  -0.0232 -0.0193
## # … with 57 more rows
## # A tibble: 67 x 4
##    correlacao                                     pearson spearman kendall
##    <chr>                                            <dbl>    <dbl>   <dbl>
##  1 engaj_mediano_proprio + engaj_mediano_retweet  0.00703  -0.410  -0.340 
##  2 n_proprio + engaj_mediano_retweet             -0.0322   -0.0970 -0.0787
##  3 engaj_total_proprio + engaj_mediano_retweet   -0.00280  -0.0523 -0.0430
##  4 engaj_mediano_retweet + engaj_max_proprio     -0.00116  -0.0232 -0.0193
##  5 segue + engaj_mediano_proprio                 -0.0107    0.0402  0.0287
##  6 seguidores + engaj_mediano_retweet             0.0322    0.0786  0.0641
##  7 segue + engaj_mediano_retweet                 -0.0197    0.0858  0.0693
##  8 engaj_mediano + engaj_mediano_retweet          0.116     0.0914  0.0752
##  9 n_retweet + engaj_mediano_proprio             -0.0254    0.129   0.0992
## 10 engaj_total + engaj_mediano_retweet            0.0718    0.150   0.120 
## # … with 57 more rows
## # A tibble: 67 x 4
##    correlacao                                     pearson spearman kendall
##    <chr>                                            <dbl>    <dbl>   <dbl>
##  1 engaj_mediano_proprio + engaj_mediano_retweet  0.00703  -0.410  -0.340 
##  2 n_proprio + engaj_mediano_retweet             -0.0322   -0.0970 -0.0787
##  3 engaj_total_proprio + engaj_mediano_retweet   -0.00280  -0.0523 -0.0430
##  4 engaj_mediano_retweet + engaj_max_proprio     -0.00116  -0.0232 -0.0193
##  5 segue + engaj_mediano_proprio                 -0.0107    0.0402  0.0287
##  6 seguidores + engaj_mediano_retweet             0.0322    0.0786  0.0641
##  7 segue + engaj_mediano_retweet                 -0.0197    0.0858  0.0693
##  8 engaj_mediano + engaj_mediano_retweet          0.116     0.0914  0.0752
##  9 n_retweet + engaj_mediano_proprio             -0.0254    0.129   0.0992
## 10 segue + engaj_mediano                         -0.00592   0.167   0.114 
## # … with 57 more rows

2 — Quando mais tweet próprio mais engajamento próprio?

Será que se um político tweetar mais isso significa que ele tem mais participação nos seus próprios tweets?

corr = dados %>%
  summarise(pearson = cor(n_proprio, engaj_total_proprio, method = "pearson"),
  spearman = cor(n_proprio, engaj_total_proprio, method = "spearman"),
  kendall = cor(n_proprio, engaj_total_proprio, method = "kendall"))

vis = dados %>%
  ggplot(mapping = aes(n_proprio, engaj_total_proprio)) +
  geom_point(alpha=.4, color = "#D81159") +
  scale_x_log10() +
  scale_y_log10() +
  geom_smooth(aes( group = 1 ), colour = "#218380")

ggplotly(vis)
corr
## # A tibble: 1 x 3
##   pearson spearman kendall
##     <dbl>    <dbl>   <dbl>
## 1   0.423    0.751   0.568

Através do gráfico, nota-se que, além de monotônica e positiva, há uma correlação linear moderada e relação logaritmica forte, como evidenciados nos cálculos de person e spearman respectivamente.

3 — Quando mais retweetar mais engajamento ele terá em retweets??

Será que se um político retweetar mais isso significa que ele tem mais participação nos retweets?

corr = dados %>%
  summarise(pearson = cor(n_retweet, engaj_total_retweet, method = "pearson"),
  spearman = cor(n_retweet, engaj_total_retweet, method = "spearman"),
  kendall = cor(n_retweet, engaj_total_retweet, method = "kendall"))

vis = dados %>%
  ggplot(mapping = aes(n_retweet, engaj_total_retweet)) +
  geom_point(alpha=.4, color = "#FFC857") +
  scale_x_log10() +
  scale_y_log10() +
  geom_smooth(aes( group = 1 ), colour = "#084C61")

ggplotly(vis)
corr
## # A tibble: 1 x 3
##   pearson spearman kendall
##     <dbl>    <dbl>   <dbl>
## 1   0.743    0.913   0.770

No gráfico, pode-se ver que os dados estão dispostos de forma que não há muitos pontos fugindo à tendência geral. Com o cálculo de correlação, nota-se, através de pearson, que há uma correlação linear forte.